6 research outputs found
Using deep reinforcement learning for online machine translation
We present a Deep Reinforcement Learning based approach for the task of real time machine translation. In the traditional machine translation setting, the translator system has to 'wait' till the end of the sentence before 'committing' any translation. However, real-time translators or 'interpreters' have to make a decision at every time step either to wait and gather more information about the context or translate and commit the current information. The goal of interpreters is to reduce the delay for translation without much loss in accuracy. We formulate the problem of online machine translation as a Markov Decision Process and propose a unified framework which combines reinforcement learning techniques with existing neural machine translation systems. A training scheme for learning policies on the transformed task is proposed. We empirically show that the learnt policies can be used to reduce the end to end delay in translation process without drastically dropping the quality. We also show that the policies learnt by our system outperform the monotone and the batch translation policies while maintaining a delay-accuracy trade-off.Nous preĢsentons une approche baseĢe sur l'apprentissage par renforcement profond pour la taĢche de traduction automatique en temps reĢel. Dans le cadre traditionnel de la traduction automatique, le systeĢme de traduction doit 'attendre' jusqu'aĢ la fin de la phrase avant de 'valider' toute traduction. Cependant, les traducteurs en temps reĢel ou les 'interpreĢtes' doivent deĢcider aĢ chaque moment s'ils doivent attendre et recueillir plus d'informations sur le contexte ou traduire et valider l'information disponible actuellement. Le but des interpreĢtes est de reĢduire le deĢlai de traduction sans perte de preĢcision. Nous formulons le probleĢme de traduction automatique 'simultaneĢe' comme processus de deĢcision markovien et proposons un cadre unifieĢ qui joint des techniques d'apprentissage par renforcement avec des systeĢmes neuronaux existants de traduction automatique. Un scheĢma d'entraiĢnement pour les politiques d'apprentissage sur la taĢche transformeĢe est proposeĢ. Nous montrons empiriquement que les politiques apprises peuvent eĢtre utiliseĢes pour reĢduire le retard de bout en bout dans le processus de traduction sans pour autant reĢduire radi- calement la qualiteĢ. Nous montrons eĢgalement que les politiques apprises par notre systeĢme surpassent les politiques monotones de traduction et celles de traduction par lots tout en maintenant un compromis entre preĢcision et retard